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基于 深度 学 习 的 视频 行为 识别 技术 综述 
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摘 m 行为 识别 (Action Recognition，AR) 是 计算 机 视觉 领域 的 研究 热点 ， 在 安防 监控 、 自 动 驾驶 、 生 产 安 全 等 领 
域 具 有 广泛 的 应 用 前 景 。 首 先 ， 对 行为 识别 的 内 涵 与 外 延 进行 了 剖析 ， 提 出 了 面临 的 技术 挑战 问题 ; 其 次 ， 从 时 间 
特征 提取 、 高 效率 优化 和 长 期 特征 捕获 三 个 角度 分 析 比 较 了 行为 识别 的 工作 原理 ; 再 次 ， 对 近 十 年 43 种 基准 AR 方 
法 在 UCFI01, HMDB$1, Something-Something 和 Kinetics400 数据 集 上 的 性 能 表征 进行 比 对 ， 有 助 于 针对 不 同 应 用 
场景 选择 适合 的 AR 模型 ; 最 后 ， 指 明了 行为 识别 领域 的 未 来 发 展 方向 ， 研 究 成 果 可 为 视频 特征 提取 和 视觉 内 容 理 
解 提 供 理论 参考 和 技术 支撑 。 
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Review of video action recognition technology based on deep learning 


Li Chen, He Ming’, Wang Yong, Luo Ling, Han Wei 
(Command & Control Engineering College, Army Engineering University of PLA, Nanjing 210007, China) 


Abstract: Action recognition(AR) is a hot research area in computer vision field, and has an extensive application prospect 
for security monitoring, autopilot, production safety etc. Firstly, this paper analysed the connotation and denotation of AR and 
put forward the technical challenges; Secondly, the paper analysed and compared the working principles of AR from three 
aspects: time feature extraction, efficient optimization and long-term feature capture; Thirdly, in order to select suitable AR 
models for different application scenarios, this paper compared the performance characterization of 43 benchmark AR 
methods in recent ten years based on UCF101, HMDBS51, Something-Something and Kinetics400 data sets. Finally, this paper 
pointed out the future development direction of AR field, and the research results can provide theoretical reference and 
technical support for video feature extraction and visual content understanding. 
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0 引言 序列 的 图 像 帧 ， 所 以 AR 模型 提取 空间 特征 时 还 需 考 虑 时 间 
m 特征 。 

当前 ， 视 频数 据 成 为 信息 的 重要 呈现 形式 ， 在 各 行业 广 前 有 两 条 特征 提取 思路 : 一 是 人 工 设 计 特 征 。 此 方法 

泛 应 用 。 因 此 如 何 使 计算 机 领会 视频 含义 的 视频 理解 技术 逐 基于 人 对 各 特征 的 敏感 程度 ， 直 接 设 计 含 有 物理 含义 的 特征 

渐 成 为 研究 热点 。2017 年 ， 计 算 机 视觉 与 模式 识别 会 议 是 取 器 。 其 针对 性 较 强 ， 但 存在 忽视 数据 隐 含 信息 和 通用 性 


(CVPR) 将 视频 理解 划分 定义 为 未 修剪 视频 分 类 (Untrimmed 差 等 问题 。 二 是 通过 深度 学 习 从 数据 中 提取 深度 特征 。 此 方 
Video Classification) 、 修剪 动作 识别 (Trimmed Action 法 基于 大 脑 皮层 视觉 理论 设计 模型 结构 ， 结 合 数 据 集 和 反 向 
Recognition)、 时 序 行为 提名 (Temporal Action Proposal). Hf Fr 传播 算法 训练 生成 特征 提取 器 。 此 种 方式 可 应 用 于 各 类 数据 ， 
行为 定位 (Temporal Action Localization) 、 密 集 行为 描述 但 特征 可 解释 性 较 差 包 习 。 学 术 领 域 对 手工 特征 与 深度 特征 两 
(Dense-Captioning Events) Ti iF (EBM, AMAT AW Fl 者 谁 更 具 优势 尚未 定论 ， 考 虑 到 目前 分 类 任务 以 深度 学 习 为 
(Action Recognition,AR) 属 于 修剪 动作 识别 范畴 。 针 对 AR 中 主 ， 因 此 本 文 围绕 基于 深度 学 习 的 AR 模型 论述 。 

动作 类 别 和 任务 的 不 同情 况 ， 理 解 AR 内 涵 的 侧重 点 也 有 所 前 基于 深度 学 习 的 图 像 识别 模型 已 走出 实验 室 投入 应 
不 同 。 在 Action 表示 单 人 行为 动作 时 (如 跳跃 、 走 路 、 梦 息 等 Jo AR 作为 图 像 分 类 任务 的 时 序 扩展 , 在 特征 上 多 出 时 域 信 
抽象 事件 ), 动作 粒度 更 细 , 分 类 模型 需 具 备 较 强 时 间 建 模 能 息 需要 提取 ， 致 其 仍 未 实际 部 署 。 总 结 而 言 ，AR 面临 以 下 技 
Fie TE Action 表示 单 人 或 多 人 行为 活动 时 (如 吃 面包 、 踢 足球 术 挑 战 问题 : 
等 场景 /对 象 事件 ), 识别 模型 可 通过 场景 识别 , 时 间 推 理 能 力 a) 视 频数 据 集 制作 困难 。 识 别 精度 提升 需 通 过 大 量 标 注 
要 求 较 低 。Recognition 有 两 种 含义 : a)classification， 即 对 裁 的 数据 集训 练 ， 但 视频 数据 的 标签 注释 、 动 作 定位 等 工作 
剪 视频 片段 行为 分 类 ; bjdetection， 即 给 定 未 修剪 视频 ， 先 定 常 费时 ， 制 约 了 视频 数据 集体 量化 和 AR 模型 发 展 。 

位 行为 始 来 时 间 ， 再 进行 分 类 。 另 外 ， 输 入 数据 又 存在 RGB b) 模 型 训练 效率 低 。 视频 的 数据 量 级 较 图 像 呈 指数 增长 ， 
视频 图 、 骨骼 图 、 深度 图 等 多 种 形式 。AR 研究 领域 存在 以 上 导致 AR 模型 拟 合 时空 特 征 进行 迭代 优化 的 训练 过 程 对 硬件 
概念 的 组 合 情 况 , (AW oP Hl] RGB 视频 的 行为 分 类 为 主 , 因此 配置 要 求 很 高 ， 需 要 大 量 时 间 。 
本 文 AR 均 指 已 修剪 RGB 视频 的 行为 分 类 。 c) 类 内 高 方差 和 类 间 低 方差 。 AR 涵盖 各 类 行为 , 同一 类 

特征 提取 和 分 类 是 AR 的 核心 问题 ， 因 视频 是 一 组 时 间 动作 中 各 动作 差别 较 大 ， 而 不 同 动作 类 又 会 呈现 相似 形 
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这 对 AR 特征 提取 器 作出 了 更 为 精细 的 要 求 。 的 关节 点 行为 识别 方法 ， 张 晓 平 等 人 中 从 异常 行为 识别 和 蜡 
d) 实 时 性 较为 不 足 。 目 前 的 AR 模型 为 了 追求 高 精度 ， 常 行为 检测 两 个 角度 对 异常 行为 判别 方法 进行 了 分 析 ; 裴 利 
轻 量 化 工作 较为 小 后 ， 另 外 基本 在 离线 环境 中 仿真 ， 视 频 都 。 沈 等 人 中 对 传统 方法 和 深度 模型 效果 进行 了 对 比分 析 。 区 别 
是 预先 修剪 过 的 ， 很 难 对 视频 流 在 线 识别 行为 。 与 以 上 研究 工作 ， 如 图 1 所 示 ， 本 文 从 时 间 特 征 提取 、 高 效 
国内 外 学 者 研究 现状 如 下 : 刘 勇 等 人 外 闭 述 了 行为 识别 。” 率 优化 、 长 期 特征 捕获 三 个 角度 对 AR 模型 归纳 ， 并 总 结 了 
智能 家 居中 的 应 用 流程 ， 刘 云 等 人 名 论述 了 基于 深度 学 习 ”公共 视频 数据 集 以 及 主流 和 最 新 模型 的 性 能 对 比 。 
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图 1 AR 模型 分 类 总 览 图 

Fig. 1 Overview of AR model classification 

——— 12 三 维 卷 积 模型 

1 。 时空 特征 提取 深度 模型 光 流 虽 能 提取 时 间 特 征 ， 但 易 受 光线 变化 影响 ， 且 对 存 
AR 发 展 初期 ， 以 改进 密集 轨迹 (iDT) 钙 为 代表 的 手工 方 储量 和 计算 量 要 求 较 高 ， 而 且 小 位 移 特性 也 不 易 识 别 高 速 动 

法 占据 了 主导 , Hinton 等 人 四 在 2015 年 讨论 了 深度 学 习 的 原 — E. 图 像 识 别 中 2D 卷 积 取 得 了 极 好 的 效果 , 视频 较 图 像 多 出 时 

理 和 优势 后 ， 基 于 深度 学 习 的 AR 工作 逐渐 展开 。Karpathy — 间 维 度 ， 直 接 扩展 2D 卷 积 提取 时 空 特 征 的 工作 得 到 开展 。 

等 人 [9 基于 卷 神经 网 络 (Convolutional Neural Network, CNN), Ji 等 人 P9 使 用 3D 卷 积 核 学 习 时 空 特征 ， 证 明了 3D 卷 

从 堆 著 视频 帧 中 学 习 时 空 特征 实现 端 到 端 动作 分 类 ， 其 评估 E AR 中 的 有 效 性 。 但 他 们 未 对 3D CNN 细致 设计 ， 识 别 

了 晚 融合 、 早 融合 和 慢 融 合 等 2D CNN 连接 方式 ， 但 识别 精 。 精度 不 及 双流 网 络 和 手工 方法 。 后 来 C3DP0 基 于 图 像 识别 的 


度 远 不 及 传统 手工 方法 ， 表 明 此 种 简单 的 帧 融合 不 能 有 效 提 ” VGG-16 架构 ， 使 用 3X3X3 尺寸 的 3D 卷 积 核 取 得 了 不 错 
取 时 域 特征 。 的 识别 效果 。 但 C3D 的 精度 较 双 流 网 络 仍 有 差距 ， 且 参数 量 

AR 较 图 像 识别 , 不 仅 要 关注 空间 特征 , 还 要 聚焦 包括 时 ， 较 大 ， 在 当时 缺少 大 体 量 数据 集 的 情况 下 训练 周期 长 并 易 产 
域 的 时 空 特征 从 而 理解 运动 信息 。 因 此 本 节 按 照 双 流 卷 积 、 生 过 拟 合 ， 另 外 存在 的 梯度 消失 /爆炸 问题 也 限制 了 C3D 的 


三 维 卷 积 以 及 时 态 建 模 三 种 策略 ， 对 AR 的 时 空 特征 提取 工 ”深度 扩展 。 


作 进行 分 析 比 较 。 鉴于 ResNet 能 够 缓解 网 络 加 深 的 退化 问题 ，Tran SAPA 
1.1 双流 卷 积 模型 设计 了 三 维 残 差 网 络 (3D Residual Networks, R3D)。R3D 将 


当 人 观察 运动 对 象 时 ， 视 网 膜 会 流 过 连续 图 像 ， 这 些 像 ResNet 的 2D 卷 积 扩展 为 3D, 参 数量 较 C3D 降低 了 近 5096. 
素 点 的 流动 称 为 光 流 042。 光 流通 过 表征 图 像 变化 携带 运动 后 来 Hara 等 人 P3] 又 基于 R3D 进行 深度 扩展 训练 ， 对 识别 精 
信息 , 是 提取 时 间 特 征 的 有 效 方法 。Simonyan 等 人 03] 基 于 光 度 进 一 步 提 升 。T3DP4 对 C3D 也 进行 了 改进 ,但 其 使 用 的 是 
以 
网 


流 设计 了 双流 网 络 (Two-stream Network), P4 2D CNN 路 径 DenseNet 架构 , 参数 量 较 R3D 减少 一 半 , 但 稠密 连接 会 加 大 
视频 帧 和 堆 县 光 流 图 为 输入 分 别提 取 空 间 及 时 间 特 征 。 双 流 计算 负荷 。 
络 取得 了 与 iDT 比拟 的 识别 效果 , 验证 了 光 流 对 AR 的 有 效 性 。 研究 初期 的 3D CNN 一 直 未 超越 基于 光 流 的 双流 网 络 ， 
Feichtenhofer 等 人 [基于 双流 网 络 探索 了 多 种 融合 方式 , 并 随 ”直到 2017 年 BDP5 将 困境 打破 。Carreira 等 人 P5 认 为 若 把 图 
着 残 差 网 络 (ResNeb 的 推广 ， 在 文献 [15, 16] 中 使 用 ResNet 将 像 数 据 集中 一 张 图 片 多 次 复制 ， 就 可 生成 一 段 “ 静 态 视频 ” 
双流 连接 ， 实 现 了 时 空 信息 的 残 差 交互 。 在 双流 基础 上 ，Wang ”训练 3D CNN。 同 理 可 将 经 过 图 像 数据 集 预 训练 的 2D CNN 
5$ AUTBE T VGGNet-16 架构 增加 网 络 深度 , 并 采用 小 学 习 速 率 、 中 的 二 维 卷 积 核 参 数 沿 时 间 轴 复制 ， 便 能 得 到 初始 化 的 3D 
限制 裁剪 区 域 等 方法 缓解 加 深 带 来 的 过 拟 合 问题 。 CNN， 这 为 AR 使 用 图 像 识别 中 的 成 熟 架 构 提 供 了 便利 。 他 
鉴于 双流 网 络 的 良好 性 能 ， 文 献 [18] 将 双流 网 络 的 深度 “人们 将 这 种 思想 应 用 在 双流 网 络 的 二 维 卷 积 路 径 ， 并 首次 使 用 
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寺 征 放置 在 DT 轨迹 中 心 ， 构 建 了 轨迹 深度 描述 符 Kinetics 数据 集 进一步 预 训练 ,得 到 的 膨胀 三 维 卷 积 网 络 (13D) 
(Trajectory-Pooled Deep-Convolutional Descriptors，TDD) 。 比 C3D 网 络 更 深 ， 参 数 更 少 ， 成 为 了 AR 基准 方法 。 
TDD 共享 手工 和 深度 特征 , 具有 了 更 高 区 分 度 且 能 自动 学 习 ， 综 上 所 述 ，3D CNN 逐渐 超越 了 基于 光 流 的 双流 网 络 ， 


此 种 融合 方式 成 为 AR 刷新 精度 的 有 效 方法 。 丁 雪琴 等 人 0 成 为 AR 的 另 一 重要 分 文 。 

对 双流 网 络 架构 进行 了 改进 , 其 将 BN-Inception 和 ResNet 引 1.3 时 态 卷 积 模型 

入 ,建立 的 时 空 异 构 双 流 网 络 验证 了 时 空 异 构思 想 的 有 效 性 。 双流 网 络 和 3D CNN 的 计算 量 普 遍 较 高 ， 不 利于 实时 1 
综 上 所 述 ， 双 流 网 络 使 得 深度 学 习 方 法 在 视频 行为 识别 j， 且 推理 时 间 关 系 能 力 较 弱 。AR 模型 需要 随时 间 推 移 理解 

的 地 位 获得 极 大 提升 ， 并 逐渐 发 展 成 为 AR 的 重要 分 支 。 动作 信息 ， 因 此 一 些 研 究 聚 焦 于 设计 具有 时 态 建 模 机 制 和 低 
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计算 上 


可 即 插 即 用 到 CNN 架构 中 , 但 在 输入 帧 数 较 多 情况 下 , 会 导 


就 
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el 
zx 


I 时 间 模 块 ， 如 图 2 所 示 。 
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图 2 用 于 视频 分 类 的 时 态 卷 积 架 构 
Fig.2 Temporal convolution architecture for video classification 


时 间 关 系 网 络 (TRN)R9 在 多 个 尺度 上 学 习 帧 间 时 间 关 系 ， 


& 
E 
E 


致 模块 太 多 造成 训练 困难 。 根 据 3D 卷 积 可 解 耦 为 移 步 运算 
和 乘法 累加 运算 ， 时 间 位 移 模 块 TSM)P7 将 部 分 通道 沿 时 间 
HAS DR HE A WUE fei A. TSM BRAT RA BIA 2D CNN 
识别 模型 中 ,在 不 增加 计算 情况 下 实现 高 效 识 别 。TSM 的 扩 
展 工作 TINP8 在 通道 维度 上 进行 移 位 操作 ， 并 将 移 位 操作 的 


方向 和 开启 设计 为 自动 学 习 , 精度 上 较 TSM 略微 提升 .TEIP9) 
模块 通过 分 离 通道 相关 和 时 间 交 互 建 模 , TAMB9 使 用 动态 时 
域 卷 积 核 自 适 应 地 聚合 时 域 信 息 。 时 间 激 励 聚合 模块 
(TEA)Pfg STM 基础 上 提出 ME 模块 和 MAT 模块 处 理 短 


程 和 长 程 特征 。 


罗 会 兰 等 人 后 设计 了 空间 卷 积 注意 力 模块 (SCA) 和 时 间 


卷 积 注意 力 模块 TCA)。SCA 使 用 自 注意 力 捕捉 空间 特征 联 


1D 卷 积 提取 时 间 特 征 。TCA 通过 自 注意 力 获 取 时 间 


系 ， 用 
特征 ， 用 2D 卷 积 学 习 空间 特征 。 吴 丽 君 5 等 人 提出 通道 结 


合 时 间 模 块 , 通过 调整 池 化 层 和 卷 积 层 的 顺序 ,保留 更 多 的 有 


效 通道 信息 和 时 间 信 息 


综 上 所 述 ， 时 态 卷 积 方法 可 将 时 空 特征 和 运动 特征 整合 


到 2D CNN 中 ， 不 需要 光 流 和 三 维 卷 积 ， 具 有 时 间 建 模 能 力 
同时 消减 了 计算 开销 。 


2 ”效率 优化 深度 模型 


不 错 的 效率 优势 。 高 效 性 是 AR 模型 的 重要 指标 ， 双 流 CNN 


g 


1.3 节 中 , 时 态 卷 积 模型 具备 时 间 建 模 的 同时 , 彰显 了 较 


P 光 流 在 存储 和 计算 上 是 昂贵 的 ，3D CNN 参数 量 和 计算 量 


较 大 ， 因 此 关于 AR 的 效率 优化 任务 得 到 开展 。 


2 


1 输入 数据 优化 
时 域 分 段 网 络 架构 如 图 3 所 示 。 


时 域 分 段 网 络 CTSN) 


采样 片段 


JM. .ig wn 
图 3 时 域 分 段 网 络 架 构 中 3 


Fig.3 Temporal segment networks architecture 


在 输入 帧 方面 ，Wang 等 人 指出 不 是 所 有 视频 帧 都 包含 
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A 


用 信息 ， 因 此 基于 双流 CNN 提出 均匀 采样 的 时 间 段 网 络 


J IB D9 


(TSNPE5 对 视频 帧 均匀 采样 以 提升 效率 。TSN 降低 了 信息 元 
余 ， 以 较 低 代价 实现 了 端 到 端 学 习 。 关 键 帧 挖掘 框架 B9 放 弃 
随机 策略 ， 通 过 帧 打分 采样 关键 帧 ， 但 增益 
[37,38] 认 为 帧 对 分 类 任务 是 有 益 的 ， 他 们 将 所 有 
出 进行 聚 类 以 提升 效率 。 


不 明显 。 文 献 
项 的 前 向 输 


针对 光 流 不 易 计 算 问 题 , FlowNet®9!, FlowNet2.0413£ T- 


神经 网 络 从 图 像 中 预测 光 流 场 , Piergiovanni 等 人 M1 基于 TV- 
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Ll 光 流 提出 模拟 光 流 的 流 卷 积 层 , 实现 对 光 流 迭代 参数 的 端 
到 端 学 习 。 隐 式 双流 网 络 9] 将 能 够 从 视频 帧 中 产生 类 交流 的 
MotionNet 与 时 间 流 CNN 连接 ， 缓解 了 光 流 计算 开销 。 运 动 
增强 RGB 流 IMARS)I3 基 于 学 习 流 思想 , 使 用 训练 好 的 光 流 
训练 神经 网 络 学 习 光 流 性 能 。Zhang 等 人 [4 通过 运动 边界 的 
小 位 移 解除 对 光 流 的 依赖 。 
2.2 ”时空 分 解 三 维 卷 积 

3D 卷 积 与 2D 卷 积 相 比 参数 量 和 计算 量 大 了 很 多 ，3D 
卷 积 核 的 维度 是 FcXFrXFHaxFw， 其 中 Fc 表示 卷 积 核 的 通 
道 数 , FHXFw 表示 卷 积 核 的 空间 感受 域 , Fr 表示 卷 积 核 的 时 
间 感 受 域 。 在 不 考虑 通道 Fc 的 情况 下 , 时空 分 解 思 想 是 将 时 
空 维度 为 FrXFHXFw 的 3D 卷 积 核 分 解 , 近似 为 空间 维度 为 
1X FuX Fw 的 2D 卷 积 核 和 时 间 维 度 为 FrX1X1 的 1D 卷 积 
核 的 外 积 ， 如 图 4 所 示 。 


Fy Fr 


图 4 


时 空 分 解 三 维 卷 积 
Fig.4 Space-time decomposition of 3D convolution 

基于 此 分 解 思想 , P3DM GH AY 1X3X3 的 2D 卷 积 和 3X 
1X1 的 1D 卷 积 模拟 3X3X3 的 3D 卷 积 ,P3D 参数 量 较 C3D 
显著 降低 ， 且 利用 2D CNN 初始 化 训练 。Tran 等 人 59 提 出 的 
R(2+1)D, 是 和 P3D-A 类 似 的 先 2D 卷 积 后 1D 卷 积 结构 。 但 
R(2+1)D 利用 效率 优势 增加 通道 数 ,准确 率 较 RID 得 到 提升 。 
S3DU" Jj Top-heavy 方式 简化 特征 量 , 优化 了 效率 。 近 期 ， 
Sudhakaran 等 人 [提出 3D 时 空 分 解 的 空间 门 控 模块 (GSM)， 
GSM 可 通过 时 间 自 适应 寻找 特征 并 组 合 , 几乎 不 需 额外 参数 
和 计算 。 

时 空 分 解 具备 效率 优化 的 特点 ， 但 这 种 硬性 的 时 空 可 分 
离 方式 会 影响 到 AR 模型 的 最 优 迭 代 ， 从 而 影响 到 AR 的 精 
细 程 度 。 
2.3 深度 分 离 三 维 卷 积 

不 同 于 时 空 分 解 卷 积 ， 深 度 分 离 卷 积 是 将 卷 积 核 拆 分 为 
不 同 深度 的 卷 积 组 。 如 图 5 所 示 ， 深 度 分 离 卷 积 是 将 维度 为 
FcXFrXFnXFw 的 3D 卷 积 核 分 解 为 两 部 分 ， 一 是 1X FrX 
Fu X Fw 的 逐 通道 卷 积 核 (Depthwise Convolution)， 二 是 Fc X 
1X1X1 的 逐 点 卷 积 核 (Pointwise Convolution)， 它 将 第 一 部 
分 的 特征 在 深度 方向 上 加 权 组 合生 成 特征 ， 两 个 部 分 可 在 
Bottleneck 结构 基础 上 共同 作用 优化 模型 效率 。 


Fr Fc 


Fw, n 


深度 分 离 三 维 卷 积 


Fig. 5 Depth separation of 3D convolution 
MFNet'9]3£-T- ResNet 和 深度 分 离 卷 积 思 想 ， 将 ResNet 
模块 切 分 为 多 纤维 ResNet 模块 。 实 验证 明 MFNet 计算 量 较 
I3D 和 R2-1)D 分 别 减少 了 9 倍 和 13 倍 。 通 道 分 离 卷 积 网 
络 (CSN) CSE PRE A A AGAR, Æ 3D ResNet 模块 上 设计 了 


图 5 


三 种 Bottleneck 结构 ,与 R(2+1)D 相 比 计算 量 减少 了 2-3 倍 。 
分 组 时 空 聚合 (GST)51 基 于 深度 分 离 对 P3D 改进 ， 对 不 同 通 


道 分 别 进行 空间 和 时 间 操 作 以 提升 效率 。 
深度 分 离 卷 积 能 够 减少 参数 量 ， 但 其 中 的 逐 通 道 卷 积 缺 
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少 跨 通 道 信息 ， 导 致 缺乏 空间 关联 ， 不 利于 AR 模型 的 时 空 (TLE), WRK AWE. 
特征 提取 。 Wang 等 人 [65 基于 TSN 提 出 了 时 序 差 分 网 络 (TDN), TDN 
2.4 混合 2D 和 3D 卷 积 设计 了 基于 不 同 特征 的 通道 注意 力 增 强 方法 ， 实 现 对 段 间 运 
鉴于 卷 积 分 解 对 识别 效果 的 影响 , 联合 2D 和 3D 卷 积 的 ” 动 变 化 信息 的 增强 。 
方法 试图 在 保证 精度 的 同时 ， 进 行 效率 优化 。MiCTB52 在 3D — 3.2 长短 时 记忆 网 络 
卷 积 后 串联 2D CNN 延伸 深度 ， 另 外 并 行 2D CNN 避免 深度 长 短 时 记忆 (LSTMD)I69 在 表征 语言 序列 上 效果 显著 , 具备 
增加 造成 的 梯度 消失 和 训练 误差， 有 效 控 制 了 3D CNN AA 较 强 的 长 期 特征 捕获 能 力 。 视 频 具 有 和 语言 类 似 的 时 间 上 下 
性 。 相 反 ， 高 效 卷 积 网 络 (ECO)653] 通 过 2D CNN 得 到 特征 图 文 关系 ， 因 此 Srivastava 等 人 [6 认为 LSTM 是 促进 AR 模型 
后 ， 再 连接 3D CNN 实现 分 类 。ECO 支持 快速 处 理 ， 能 在 1 ”学 习 长 序列 关系 的 有 效 途 径 。 
秒 内 进行 230 段 视频 的 动作 分 类 。 如 图 7 所 示 , Ng 等 人 [99 先 使 用 2D CNN 提取 空间 特征 ， 
ARTnet6549 基 于 双流 思想 ， 双 流 分 别 配 置 2D 和 3D 卷 积 再 输入 LSTM 进行 融合 实现 时 序 特征 提取 。 在 此 基础 ， 长 期 
提取 空间 和 时 间 特 征 。SlowFast655 网 络 类 似 于 ARTnet 的 双 ”递归 卷 积 网 络 ILRCNs)[6 进 行 了 端 到 端 训 练 的 优化 工作 。TS- 
流 路 径 , 但 SlowFast 设计 了 慢 - 快 路 径 。 如 图 6 所 示 , EERE ”LSTMU0 将 特征 矩阵 划分 为 若干 时 间 段 ， 分 别 平均 或 最 大 池 
聚焦 空间 特征 ， 输 入 上 使 用 低 帧 采样 和 较 大 的 通道 数 ， 约 占 化 汇集 ， 按 顺序 输入 LSTM 2. I3D-LSTMU!3& 3- 13D, X} 
80% 计 算 量 。 快 路 径 聚 焦 时 间 特 征 ， 输 入 上 使 用 高 帧 采样 和 ”3D CNN 和 LSTM 的 结合 工作 作出 尝试 。Li 等 人 [3 将 LSTM 
较 小 的 通道 数 ， 约 占 20% 模 型 计算 量 。 但 行为 的 节奏 多 样 ， 的 权重 点 积 改 成 卷 积 运算 ， 证 明 Conv-LSTM 较 LSTM 更 有 
SlowFast 需要 设置 不 同 帧 率 , 有 旦 事先 定义 不 同 帧 率 并 不 实际 。 利于 注意 力 机 制 发 挥 。 
针对 此 问题 ， 时 间 金 字 塔 网 络 ITPN)59 在 使 用 一 个 帧 率 情 况 LSTM 一 定 程 度 增强 了 CNN 的 长 时 表征 能 力 , 但 LSTM 
下 ， 提 取 不 同 层次 的 金字 塔 式 特征 图 ， 表 征 各 速率 特征 ; 本 身 训练 比较 困难 ， 再 加 时 序 先后 顺序 的 严格 迭代 比较 影响 
BQN5 "1 将 快慢 信息 自动 分 开 , 通用 性 更 强 。 刘 人 钊 等 人 [8 为 了 训练 效率 。 
降低 3D CNN 的 参数 量 提出 了 时 域 零 填充 卷 积 网 络 ， 其 先 以 视频 流 视频 由 CNNALSTM 
Bod a cM Ud 13D 卷 积 提取 时 空 信息 ， 然 后 利 网 络 = }+—- jaa . 
重组 结构 将 3D AE EAE 2D 卷 积 来 进一步 提取 特征 。 Í— —3s--is- 
A L— di edi 
ges. i 
低 帧 率 — -§ss-s-s i 
—u— Dae B oes 
a LSTM 
图 7 ”基于 长 短 时 记忆 网 络 的 行为 识别 模型 Im 
gs Fig.7 Action recognition model based on LSTM"® 
高 帧 率 Eje 3.3 Transformer 
图 6 ”用 于 行为 识别 的 SlowFast 网 络 53 CNN 和 LSTM 只 有 通过 重复 堆 欠 才能 捕获 长 期 依赖 关 
Fig.6 Slowfast network for action recognition"?! 系 ， 但 同时 特征 也 会 随 距 离 增 加 逐渐 衰减 ， 并 且 运 算 开 销 也 
综 上 所 述 , AR 效率 优化 都 会 在 深度 、 空 间 、 时 间 、 通 道 、 较 大 。2017 年 谷歌 在 自然 语言 处 理 领 域 提 出 TransformerL73， 
采样 等 指标 上 扩展 或 压缩 ， 但 人 工 设 置 对 精度 和 效率 的 平衡 ”Transformer 不 管 序列 间距 离 有 多 远 ， 其 多 头 自 注 意 力 机 制 都 
是 次 优 的 。 最 近 X3D69 基 于 各 指标 自动 逐步 扩展 和 评估 反馈 ， ”能 直接 关注 到 任意 序列 间 的 全 局 信息 ， 在 运算 上 具备 很 强 的 
在 实现 良好 精度 的 同时 极 大 提升 了 运行 效率 。MoViNet[60 不 并 行 性 。Wang 等 人 [ 鸣 基 于 自 注意 力 机 制 提出 了 非 局 部 神经 
同 于 X3D 的 定义 扩展 , 使 用 神经 网 络 搜索 生成 高 效 和 多 样 化 网 络 (NLNN)，NLNN 能 够 计算 任意 两 个 时 空位 置 间 的 关系 ， 
的 3D CNN， 并 取得 了 极 好 的 效率 -精度 平衡 。 从 而 快速 捕获 长 期 特征 。Neimark 等 人 [提出 了 基于 
CNN+Transformer 的 AR 模型 VTN， 其 利用 2D CNN 提取 特 
3 ”长 期 特征 捕获 深度 模型 征 后 ， 再 通过 Transformer 结构 关注 长 期 信息 。UniFormer[79 
前 文 模型 提取 的 是 短期 动作 特征 ， 对 于 起 止 间隔 较 长 的 基于 时 空 自 注 意 力 ， 分 别 在 浅 层 和 深层 CNN 学 习 局 部 和 全 
动作 (如 跳高 和 跳远 ) 识 别 效果 较 差 。 长 期 时 间 卷 积 LTC)[0 堆 ” 局 标签 相似 性 ， 来 解决 时 空 见 余 和 依赖 关系 ， 在 计算 和 准确 
县 更 多 视频 帧 增强 长 期 特征 性 能 ，FOFB9、FCFo 考 加 多 个 ” 性 之 间 取 得 了 更 好 的 平衡 。 
表示 流 层 捕获 更 长 时 间 特 征 。 但 这 些 方法 算 量 较 大 ， 并 且 长 ViViTI7 基 于 VITI EAIA CNN， 使 用 纯 Transformer 
间隔 帧 间 关 系 易 丢失 ， 因 此 研究 者 针对 如 何 捕获 长 期 行为 特 进行 AR 任务 。 如 图 8 所 示 ，ViViT 将 视频 构建 为 一 组 时 空 
征 的 问题 进行 了 研究 。 标签 和 时 空位 置 编 码 后 , 作为 Transformer 的 输入 进行 分 类 任 
3.1 全 局 均匀 采样 务 。MViT59 基 于 ViT 创建 多 尺度 特征 金字 塔 , 首先 在 高 分 辨 
第 2 节 中 TSNB35 使 用 稀疏 采样 策略 固定 了 计算 量 , 但 是 率 下 建 模 低 层次 视觉 信息 ， 后 来 在 低 分 辩 率 下 建 模 复 杂 高 维 
同时 此 策略 还 得 到 了 全 局 采样 帧 ， 实 现 了 长 期 特征 提取 。 因 特征 。Li 等 人 [50 对 MViT 作出 改进 ， 分 解 了 相对 位 置 谋 入 和 
此 稀 疏 采样 策略 ， 被 AR 模型 的 数据 预 处 理 阶段 广泛 采用 。 余 池 连 接 。 由 于 视频 帧 之 间 存 在 较 大 的 局 部 元 余 和 复杂 的 
E TSN 仅 将 采样 帧 预测 得 分 平均 , 不 能 弥补 虚假 标签 损 ”全 局 依赖 性 ， un STAM-32I?132 2$ $8 4 f Jl A, SEF 
Ke Lan SAMEERA MA AME, TEMP BH VT 提出 可 分 离 注意 分 别 执行 空间 注意 和 时 间 注 意 ， 减 少 了 
上 训练 出 映射 函数 ， 从 而 将 全 局 特征 a 编码 的 计算 消耗 。 
ActionVLADIG] 将 双流 时 空 特征 做 池 化 聚合 ， 实 现 了 全 局 特 同一 组 视频 帧 若 在 时 间 排 序 不 同 ,可 能 会 表征 不 同 动作 ， 
征 的 整合 。Diba 等 人 [的 将 采样 特征 融合 进行 时 间 线 性 编码 。 例如 走路 可 能 会 变 成 跑步 。 然 而 传统 的 注意 力 机 制 不 包含 相 
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Fig.8 Action recognition model based on Transformer"? 
展 了 BERT 预 训练 工 
HAE cit H ex A 


BEVT!41¢ 


的 注意 力 机 制 改造 为 定向 
， 以 正确 的 顺序 理解 人 类 行为 。 


， 因 此 DirecFormerts31 基 于 余弦 相似 度 将 
时 间 注 意 和 定向 空 
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作用 于 AR 任务 ， 它 采 
像 数 据 进 行 掩 码 图 像 建 模 ， 然 后 通过 权 


[| 


Z] 


建 模 。BEVT 简化 了 


像 和 视频 数据 进行 联合 撼 码 图 像 建 模 和 掩 码 视频 


的 学 习 ， 并 且 保 留 了 从 


AR Transformer 


700， 共 650,317 个 视频 Kinetics-700-2020P513 700 类 扩 


等 : 基于 深度 学 习 的 视频 行为 识别 技术 综述 


到 至 少 700 个 剪辑 视频 。 
Something-Something°l(Sth-Sth) Z5 415 f T8 A K E JE ER 


签 ， 更 强调 动作 本 身 ， 包 含 人 对 
动作 类 有 174 ^. VI 版 本 


ChinaXiv 


日 常 对 象 执 行 的 基本 动作 ， 


合作 期 乔 


第 39 卷 第 9 期 


展 


108,499 个 视频 ，V2 版 本 中 有 


220,847 个 视频 ， 持 续 时 间 2 秒 到 6 秒 。 
表 1 AR 数据 集 对 比 

Tab. 1 Comparison of AR data sets 
4E 4 数据 集 动作 类 别 ”剪辑 数 应 
2009 Hollywood2°7 12 3,669 Hae Pan fe 
2011 HMDBS1!7 51 6,849 身体 交互 动作 
2012 UCF1015! 101 13,320 交互 动作 
2014 Sports-1 M!" 487 1,000,000 体育 视频 
2015 ActivityNet99] 200 19,994 常 动作 
2020 Kinetics?! 700 650,000 YouTube 视频 
2019 CharadesU 9?! 157 9.848 常 行 为 
2019 Moments in Time!!! 313 1,020,000 ”动词 动作 标签 
2017 Sth-Sth®*) 174 108,499 ”日 常 基本 动作 
2020 TITAN" 50 700 车 辆 、 行 人 动作 
2019 20BN-JESTER!! 27 148,092 人 类 手势 
2019 MMAt009 37 36,000 多 模 态 动作 
2020 RareAct!!951 122 7607 异常 交互 动作 
2021 TinyVIRAT009 26 12,829 监控 视频 
2021 UAV-Human0o07 119 67,428 “无 人 机 视角 动作 
2021 Action Genome!!! 75 1750 组 合 动作 


Action Genome!!8] zz 


以 分 层 活 动 和 


动作 数据 集 ， 


T 


UH A PARA AALS A 2 PL 


[| 


组 合 标签 ， 


4.2 精度 评估 


本 节 对 各 AR 模型 的 参数 量 、 计 算 量 、 


原子 如 


有 高 级 活动 和 低级 动作 的 定义 。 


Y 图 像 中 学 习 的 空间 知识 。 
© | Transformer 在 各 类 数据 上 的 通用 性 ,基于 Transformer 
(e 的 多 模 态 AR 研究 得 到 发 展 。Alfasly 等 人 [5 采用 BERT 构建 
© 语义 音频 视频 标签 字典 (SAVLD)。SAVLD 将 视频 标签 映射 到 
e 其 最 相关 的 音频 标签 ， 然 后 与 预 训 练 的 音频 多 标签 模型 在 训 
© 练 阶段 共同 估计 视听 模 态 的 相关 性 。Zellers 等 人 [559 设计 了 适 
LO 用 于 所 有 模式 和 时 间 步 长 的 联合 编码 器 (Transformer)， 通 过 
© 向 联合 编码 器 提供 视频 帧 以 及 单词 或 音频 的 序列 级 表示 ， 以 
CN 预测 数据 内 容 。 
2021 年 开始 ， 基 于 Transformer 的 AR 模型 持续 刷新 各 
QN 基准 数据 集 的 精度 榜 单 ， 具 备 极 好 的 长 期 特征 捕获 能 力 。 但 
nu 是 Transformer 模型 缺乏 归纳 偏 置 能 力 ， 不 具备 CNN 的 平移 
2 不 变性 和 局 部 性 ， 因 此 在 数据 不 足 时 不 能 很 好 的 泛 化 到 AR 
»Q 任务 上 。 
O 4 深度 模型 评估 
Ir 本 节 在 4.1 节 介 绍 了 公共 视频 数据 集 。 在 42 节 和 4.3 节 ， 
© 基于 UCFI01. HMDB51, Kinetics400 和 Something-Something 
数据 集 , 对 各 AR 模型 的 识别 精度 和 运行 效率 进行 了 分 析 比 对 。 
4.1 视频 数据 集 
高 效 准确 的 模型 设计 是 AR 的 核心 工作 ， 而 视频 数据 也 
同样 重要 。 视 频数 据 集 应 符合 类 别 均衡 、 数 据 充足 、 标 记 正 
确 、 任 务 相 关 等 特点 。Duan 5E ABIAJ Web 数据 训练 视频 
识别 模型 ， 克 服 了 数据 格式 之 间 的 障碍 ，Zhang 等 人 [B8 将 


Trai 


表示 ,，Ryool&9] 在 视觉 数据 中 学 习 挖掘 数据 集 标签 制作 数据 集 
通过 此 数据 集训 练 的 TokenLearner 
以 此 可 见 数 
任务 中 的 16 种 公 
HMDB51 003k 


nsformer 在 


AS [a] LB SEX Y 


nt 


| 练 学 习 到 更 好 的 动作 


E 


Tn 


获得 了 极 好 的 识别 效果 。 
AR 模型 的 重要 作用 ,所 以 本 节 表 1 对 AR 
数据 集 进 行 介绍 。 

自 公共 数据 库 ， 共 6,849 个 剪辑 视频 ， 


分 


51 个 动作 类 ， 类 别 包括 面部 动作 、 一 般 身体 动作 、 物 体 交 互 


动作 、 人 类 互动 动作 。 
UCF101P!JÀ YouTube 收集 ， 
频 分 为 25 组 , 每 组 
单 人 动作 、 人 人 交互 、 演 奏 乐 器 、 运 动 。 


H. 


40002 


de 


ZN 


Kinetics 是 目 


k 13,320 个 剪辑 视频 ， 视 
包含 4-7 个 动作 类 ,动作 类 别 包 括 人 物 交 


前 AR 主要 采用 的 数据 集 。 第 1 代 Kinetics- 


数据 集 来 自 于 YouTube 视频 ， 包 含 400 个 动作 类 ， 共 
306,245 个 视频 ;第 2 代 Kinetics-600093] 扩 
482,622 个 视频 ; 


展 到 600 个 动作 类 ， 
第 3 (X Kinetics-700094 将 动作 类 扩展 到 


, 


1 Age - 


JERR ZE VÀ us TERT MR 


训练 次 数 、 数 据 


预 处 理 、 软 硬件 配置 等 方面 不 做 考虑 ， 育 焦 模型 的 单 标签 数 
据 集 精确 度 (accuracy)， 为 4.3 节 效 率 评估 的 模型 分 析 提 供 参 
考 。 表 2 引用 原文 中 各 方法 在 UCF101 和 HMD51 数据 集 的 
精确 度 ， 按 照 时 间 、 技 术 原 理 横 纵向 排列 比 对 ， 并 标明 了 光 
流 、 架 构 使 用 和 预 训练 情况 。 

通过 表 2 可 知 : Slow fusion CNNL0 在 AR 中 的 早期 尝试 
效果 并 不 理想 ， 这 是 因为 2D CNN 缺乏 时 间 特 征 提 取 能 
基于 光 流 的 Two stream CNNI3] 表 现 出 很 好 的 识别 效果 , 说 明 


光 流 时 间 特 和 
~23, 25, 6l] 等 模型 订 
性 ; 另 外 TSM! 3 
间 模 块 对 于 CNN 时 


C3DP 


的 AR f$ 
Transformer 的 AR 模型 [81, 4 ， 取 得 了 与 其 他 
SMARTP8 
的 识别 精度 。 
或 者 时 间 模 块 的 特 和 


对 了 


Two-streaml! 


表明 , 双 


F 表 2 各 部 分 横 
] 略 微 增 益 ，Fu 
流 间 融合 和 


an 
结合 


sion two-stream 


E 对 AR 的 积极 作用 ; 同时， 基于 3D CNN 的 
EH] f 3D 卷 积 核 提 取 时 空 特征 的 有 效 
,32.571 等 模块 对 时 态 单独 如 
间 表 征 的 强大 性 能 ; 反之 ， 
度 增 益 非 常 有 限 [6& 70, 70， 最 后 ， 按 弃 CNN 使 
技术 代表 模 
、Two-Stream DDÜ5, BQNÜ7II I3D-LSTMU!E 


EB, ， 彰 显 出 时 
LSTM 


对 CNN 
Jati 


型 
EH 


因此 ,目前 AR 实现 可 着 重 关 注 基于 Transformer 
E 提 取 技 术 。 
向 对 比 : 双流 部 分 中 ,， TDD+IDTHSI 较 
14 和 ST-ResNetU5! 
ResNet 增加 深度 是 提高 双流 精度 的 


合适 方法 ; 3D 和 时 间 模 块 部 分 中 , RIDA, ResNeXtUI, Two- 


Stream I3DP5 和 TSM, TEAS 
| ResNet 或 BN-Inception 架构 加 
IAS a) APE OD ZEA, BPE BS 


TR 


l BQNP7I&E AR 模型 ， 都 使 
是 高 精度 ; 采样 和 


卷 积 层 以 


=> 


AE 


名 压缩 模型 体 量 ， 进 而 纵向 


网 络 深度 的 方式 是 提升 精度 的 有 效 选择 85 0 4647.64, 


结合 表 2 中 预 训练 指标 ， 观 察 到 基于 2D CNN 的 Two- 
streamU3] ,TSNB5] 等 双流 和 时 间 模 块 部 分 均 使 用 ImageNet Zi 


据 集 预 训练 。3D 部 分 中 BDPS H 


膨胀 思想 后 也 能 够 使 用 


0068v1 


oF 


= 


)5 


r 


Va 
| 


| 


ImageNet 24 
4%. BD 取得 了 


预 训 


采用 


mul 


A2 各 AR AA 


# 展 ， 
| 练 ， 并 且 首 次 使 用 Kinetics 视频 数据 集 


极 好 的 识别 效果 ， 后 来 的 各 AR 方法 均 
了 与 BD 类 似 的 预 训练 方式 。 这 表明 数 
度 提升 的 


昌 集 对 于 AR 精 
1 如 Omni 的 大 数据 联合 统计 训练 的 新 
展现 出 极 好 的 识别 效果 。 
E UCF101 与 HMD51 数据 集 上 识别 精确 
Tab.2 Comparison of identification accuracy of each AR model on 

UCF101 and HMD51 data sets 


度 比较 


年 份 预 训练 主干 架构 ”UCF101HMD51 
2014 ImageNet AlexNet 

2014 ImageNet VGG-M-2048 59.4 
2015 ImageNet VGG-M-2048 65.9 
2016 ImageNet VGGNet-16 65.4 
2016 ImageNet ResNet50 70.3 
2014 Sports-1M VGG-11 56.8 
2016 Sports-1M VGG-11 64.8 
2017 Sports-1M ResNet-18 54.9 
2017 ImageNet+Kinetics | BN-Inception 80.9 
2018 Kinetics ResNet-101 74.5 
2019 ImageNet ResNet-50 13:5 
2019 ImageNet- Kinetics ResNet-50 72.2 
2020 ImageNet- Kinetics ResNet-50 73.3 
2021 ImageNet+Kinetics ResNet-50+TSM 77.6 
2016 ImageNet BN-Inception 69.4 
2017 ImageNet BN-Inception 71.1 
2020 Kinetics ResNet-152 84.36 
2017 ImageNet+Kinetics — BN-Inception 75.9 
2018 Kinetics ResNet-34 74.5 
2015 ImageNet VGGNet-16 - 
2019 ImageNet ResNet-101 69 
2019 Kinetics BN-Inception 

2021 Kinetics ViT-B 744 
2021 ImageNet- Kinetics ViT-B - 
2021 KineticstOmniSource ResNet-101+I13D 98.6 — 83.3 
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表 3 各 AR 模型 在 Kinetics-400、Sth-Sth V1 Beg 
Tab.3 The identification accuracy of AR models was compared on 
Kinetics-400 and Sth-Sth V1 datasets 


作 期 刊 
第 39 卷 第 9 期 


EL 


年 


Kinetics-400 Sth-Sth V1 Sth-Sth V2 


Top! Top5 Top! Top5 


2016 
2017 
2017 
2019 
2019 
2019 SlowFast-N 
2017 
2017 
2018 
2019 
2020 
2020 
2020 
2021 
2021 UniFormer-BU9! [3D+Transformer 82.9 
2021 
2021 
2021 
2021 


ResNet-50-I3D 77.7 


ViT-B+MViT-L 87.0 


19.7 46.6 30.0 60.5 
41.6 72.2 43.8 73.2 
48.2 78.7 69.4 89.1 


53.3 - 605 - 
55.16 - 627 - 

- - 6017 - 
42.01 - 55.5283.06 
440 76  - - 
50.7 - 66.6 91.3 


50.7 80.4 64,2 89.8 
52.3 81.9 64.5 89.8- 
55.3 82.8 66.5 90.6 
56.8 84.1 69.6 922 
57.1 842 - - 

60.9 87.3 71.2 92.8 
- - 73.3 941 
- - 75.0 95.0 
- - 65.4 89.8 
- - 70.9 92.5 


与 场景 具有 较 强 相关 性 


六 | 


o 


精度 并 不 
征 的 Sth-Sth 数据 集 上 对 模型 计 
次 数 、 数 据 预 处 
方法 在 Kinetics40 
技术 分 区 横 纵 向 提 


性 能 相近 ， 但 在 Sth-Sth 


Hj TSN 的 稀 琉 采样 策 


FE 时 间 建 模 能 力 ， 所 以 需要 在 侧 习 


UCF101、HMD51 和 Kinetics 数据 集中 ， 视 频 帧 的 动作 


4.3 


比分 析 ， 

模型 原文 中 的 预 ; 
数量 代表 
在 于 GPU 
率 评 估 。 
通过 表 4 可 知 : 首先 , TSN 
识别 精度 更 高 的 | 
的 8 帧 强 于 Inception 的 25 tii). 


估 。 不 考虑 参数 计算 量 


使 用 情况 。 


此 AR 模型 在 此 类 数据 集 上 的 高 
动作 特 


训练 


EE、 软 硬件 配置 等 因素 ， 表 3 引用 原文 中 各 
0 和 Sth-Sth 数据 集 的 精准 度 ， 按 照 时 间 、 

FE 列 ， 并 标明 了 架构 
先 ，TSNB5 和 13 DPS 
上 TSN 与 ID 存在 较 大 差距 。 这 说 


在 Kinetics400 上 


各 丢失 了 大 量 运动 信息 。 
ResNet-50 架构 下 ， 第 一 部 分 的 TSN 和 BD RÄ 
TSMP71、STMB2、TEABHU 在 Kinetics400 上 识别 精度 并 不 占 


其 次 ， 相 同 
分 的 


优势 , 在 Sth-Sth 上 差距 更 被 拉 大 。 另 外 , 相同 ResNet-101 28 


构 下 ，CSNI0 和 SlowFastP5lf PAN 
Kinetics400 | 


拉 


续 刷 新 精度 榜 ， 直 接 超 越 了 发 展 多 年 的 各 CNN 模型 。 
E AR 应 用 于 场景 相关 任务 ， 需 
、 时 间 模 块 设计 、 横 向 压缩 体 生 
预 训练 等 方面 。 若 应 上 


Transformer 技术 
ALK ph By 
TEASE A 


上 识别 精度 略 
距离 。 说 明 与 3D BAF 
确实 更 能 有 效 提取 运动 特 和 
F Transformer 的 AR 模型 


irm 
的 基 了 


44] 
s 


ipie his 


TDNI$3, BONETIZE 
占 优势 ， 但 在 Sth-Sth 上 又 再 次 被 
比 , Æ CNN 上身 
E。 最 后 ，2021 年 兴起 
在 Kinetics400 和 Sth-Sth 上 持 


Fh Be 


关注 


行 模型 设计 。 


旺 及 残 差 连接 
于 识别 场景 弱化 的 动 
F 务 ， 不 要 选择 间隔 过 大 的 采样 策略 ， 另 外 可 聚焦 时 
间 模 块 或 Transformer 技术 进 


G 


不 可 观 ; 最 近 XID" H 
构 搜 索 方法 取得 了 极 好 上 
为 


NAEP. V 
模 
Transformer 的 AR 模型 
BOR. RAIA 
CNN 的 大 部 分 模型 。 
综 上 所 述 , di AR 应 用 于 妊 
间 模 块 设计 、Transformer “#77 [f 
AR 模型 需要 大 量 数 所 
很 难 让 Ttransformer 发 挥 
决 此 问题 的 合适 途径 。 


时 
的 


小 的 应 | 


5 


Mx 


识别 精度 对 各 模型 


建 模 能 力 进行 了 对 


s 


] 。 不 考虑 训练 


5 用 显存 量 )、GFLOPS( 代 


表 4 引 用 各 AR 


} 间 的 长 短 ， 要 求 


的 运算 能 力 ) 和 精确 


基准 模型 进行 效 


35132 HH ResNet 较 BN-Inception 
青 况 下 FLOPS 更 小 ， 识 别 精度 更 高 (ResNet 
此 目前 的 AR 模型 普遍 采 


ResNet 作为 基础 架构 ， 但 ResNet 对 参数 量 提出 了 更 高 要 


求 。 其 次 ,在 3D CNN 的 效率 优 


^ie BD 执行 次 数 得 到 显著 降 


[ 作 中 ， 时 空 分 解 的 S3D- 
并 且 精 度 得 到 略微 提升 ; 


ARTNet54 和 MEF-NetI49 分 解 工 作 


是 升 了 模型 效率 而 损失 J 


YR; SlowFastP5UA f (Ril 


， 模 型 参数 量 和 计算 量 也 


展 模型 和 Mo ViNet!©°l px] i 2 
[精度 平衡 。 另 外， 以 TSM 
发表 的 时 间 卷 积 模型 体 量 与 分 解 3D 卷 积 模型 相当 ， 并 在 
Kinetics400 保持 了 稳定 的 识别 精度 .如 TDNIG] 在 不 增加 TSN 
度 得 到 极 大 提升 ， 这 证 明了 插入 时 间 
岂 方 式 的 高 效率 和 强大 的 时 间 建 模 能 
77, 79, 80, 89] 在 保证 不 增加 计算 量 的 1 
|j 80% 以 上 ， 识 另 


I 
I 性 能 超过 了 基于 


, 需要 关注 卷 积 分 解 


。 最 后 ， 基 于 


TE 
T 


起 本 Ttransformer 


些 数 据 量 革 


迁移 学 习 是 解 


本 文 从 时 间 特 和 
度 对 AR 模型 分 析 ， 并 在 介绍 公 


E 提 取 、 高 效率 人 


期 特征 捕获 三 个 


居 集 后 对 比 了 各 
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车 准 模型 的 精度 和 效率 性 能 。 虽 当前 AR 模型 在 各 公共 数据 语义 差异 ， 例 如 一 个 人 是 在 缓慢 走路 还 是 快速 走路 。 了 解 行 
集 上 表现 良好 , 但 距离 实际 应 用 仍 有 差距 。 以 下 是 本 文 对 AR 为 的 细节 执行 方式 ， 设 计 出 能 表示 行为 是 如 何 发 生 的 AR 特 
领域 未 来 发 展 方 向 的 参考 性 见解 。 征 提取 器 ,以 更 好 区 分 细 粒 度 行为 类 别 , 是 值得 研究 的 方向 。 


a) 小 样本 学 习 。 训 练 AR 模型 需要 大 量 标签 视频 ， 而 视 由) 多 模 态 行为 识别 。 人 类 通过 处 理 多 种 模 态 信息 感知 环 
频 标 签注 释 的 成 本 巨大 ， 这 造成 大 a 的 AR 模型 难 a, AT. fio. MAAMA RE, A EAA E EL HE. 
以 实际 应 用 。 男 外 ， 因 环境 背景 的 不 会 影响 不 同 环境 补充 。 AR 可 在 关注 视觉 信息 的 基础 上 , 基于 多 模 态 数据 研究 


中 训练 的 AR 模型 。 因 此 ， 涉及 跨 数据 集 URS. 迁移 如 何在 训练 时 利用 多 模 态 数据 的 互补 性 ， 以 便 学 习 出 更 好 的 


到 
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学 习 和 无 监督 学 习 等 小 样本 学 习 有 利于 缓解 标注 成 本 ， 同 时 AR 特征 提取 器 。 

旨 高 通用 性 。 如 充分 聚合 时 空 上 下 文 利用 有 限 样本 5 、 将 6) 多 视图 行为 识别 。 目 前 AR 主要 针对 视频 的 单 视图 ， 

图 像 数据 集 转换 为 视频 模型 预 训练 数据 源 00、 使 用 未 标记 视 ”但 在 实际 应 用 场景 中 ， 摄 像 头 被 放置 在 不 同方 向 ， 所 获取 的 

频 进 行 预 训 练 05 等 方法 。 言 恩 角度 也 是 不 同 的。 这 种 多 视图 数据 给 AR 带 来 了 挑战 ， 
pb) 视频 语义 理解 。 目 前 的 AR 方法 是 直接 提取 单 动作 特 ”同时 也 获得 了 机 遇 。 将 多 视图 数据 进行 三 维 重 建 ， 构 建 全 方 


征 ， 而 实际 的 人 类 行为 是 一 种 复杂 活动 ， 如 正在 发 生 什 么 行 ”位 的 三 维 信息 ， 进 一 步 设计 基于 三 维 视频 数据 的 特征 提取 器 


为 、 行 为 何 时 发 生 、 谁 在 执行 行为 以 及 行为 发 生 在 哪里 。 因 ”是 未 来 值得 探索 的 方向 。 

此 当 识别 复合 行为 时 ， 不 仅 要 利用 分 类 模型 ， 还 需 注 重视 频 高 效 的 模型 开发 。 在 实际 应 用 中 ，AR 技术 需 满足 处 理 

内 容 的 语义 理解 。 o 基本 语义 进而 理解 复杂 ”速度 快 、 计 算 成 本 低 、 存 储 空间 小 等 要 求 ， 前 文 总 结 的 效率 

语义 ， 是 弥补 低级 与 ei 优化 方法 大 都 是 人 工 优 化 。 通 过 神经 架构 搜索 生成 高 效 多 样 
OMANI. 细 粒 度 行为 识别 需 关 注 细微 的 时 空 ” 架构， 从 而 高 效 集成 ， 是 优化 AR 效率 的 未 来 方向 。 


RA AR 模型 在 Kinetics-400 数据 集 上 的 效率 评估 ，view( 时 间 剪 辑 数 X 空 间 剪辑 数 )， 计 算 量 FLOPs，FLOP 指 浮 点 运算 次 数 ，s 是 指 秒 ， 
即 每 秒 浮 点 运算 次 数 ， 考 量 一 个 网 络 模型 的 计算 量 的 标准 ， 参 数量 是 指 网 络 模型 中 需要 训练 的 参数 总 数 


Tab.4 Efficiency evaluation of AR models on Kinetics-400, ‘view’ (number of temporal clips«number of spatial clips); ‘flops’ refers to the number of floating 


point operations. ‘s’ refers to the number of floating point operations per second. ‘Parameter’ refers to the total number of parameters that 


need to be trained in the network model 


年 份 。 模型 预 训练 主干 架构 帧 数 xview 参数 量 /MGFLOPSxview © tes’ _ 
Topl Top5 
2016 TSN ImageNet BN-Inception 25x10x1 10.7 53x10x1 69.1 88.7 
2016 TSN ImageNet ResNet-50 8x10x1 24.3 33x10x1 70.6 89.2 
2017 I3D ImageNet BN-Inception 64xN/AxN/A 12 108xN/A 72.1 90.3 
2017 S3D-G ImageNet BN-Inception 64x10x3 11.56 71.38x10x3 74.7 93.4 
2017 ARTNet ImageNet ResNet18 16x25x10 352 23.7x25x10 70.7 89.3 
2018 R(2+1)D Sports-1M ResNet-34 32x10x1 63.6 152x10x1 74.3 91.4 
2018 MF-Net ImageNet ResNet-34 16x10x5 8 11.1x10x5 72.8 90.4 
2019 ip-CSN Sports-1M ResNet-101 32x10x3 24.5 83.0x10x3 78.5 93.5 
2019 ir-CSN Sports-1M ResNet-101 32x10x3 22.1 73.8x10x3 78.1 93.4 
2019 SlowFast - ResNet-50 (8+32)x10x3 34.4 65.7x10x3 77.0 92.6 
2019 SlowFast - ResNet-101 (8+64)x10x3 53.7 106x10x3 77.9 93.2 
2019 SlowFast - ResNet-101+NL (1664)x10x3 59.9 234x10x3 79.4 94.4 
2020 X3D - MobileNet 16x10x3 11 48.4x10x3 79.1 93.9 
2021 MoViNet-A6 - MobileNet N/A 31.4 386x1x1 81.5 95.3 
2018 TSM ImageNet ResNet-50 8x10x3 24.3 33x10x3 74.1 - 
2018 TSM ImageNet ResNet-50 16x10x3 24.3 65x10x3 74.7 91.4 
2018 STM ImageNet ResNet-50 16x10x3 24 66.5x10x3 73.7 91.6 
2018 NLBD ImageNet ResNet-50 128x10x3 35.3 282x10x3 76.5 92.6 
2018 NLBD ImageNet ResNet101 128x10x3 54.3 359x10x3 77.7 93.3 
2020 TEA ImageNet ResNet-50 16x10x3 N/A 70x10x3 76.1 92.5 
2020 TDN ImageNet ResNet-50 16x10x3 N/A 72x10x3 77.5 93.2 
2020 TDN ImageNet ResNet-101 16x10x3 N/A 132x10x3 78.5 93.9 
2021 VTN ImageNet ResNet-50 250x1x1 168 1059x1x1 71.2 90.0 
2021 VTN ImageNet ResNet-101 250x1x1 187 1989x1x1 72.1 90.3 
2021 VTN ImageNet-21K ViT-B 250x1x1 114 4218x1x1 78.6 93.7 
2021 ViViT-L JFT ViT-B 32x3x4 310.8 3992x3x4 81.3 94.7 
2021 | TokenLearner JFT ViT-B 64x3x4 450 4076x3x4 85.4 96.3 
2021 MVITvI - ViT-B 16x1x5 36.6 70.3x1x5 78.4 93.5 
2021 MVITvI - ViT-B 32x1x5 36.6 170x1x5 80.2 94.4 
2021 MViT-S - ViT-B 16x1x5 34.5 64x1x5 81.0 94.6 
2021 MVIT-B - ViT-B 32x1x5 512 225x1x5 82.9 95.7 


2021 MViT-L ImageNet-21K ViT-B 40x3 x5 217.6 2828x3x5 86.1 97.0 
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